深入解读f-散度和f-GAN训练的相关数学性质

原创孙裕道 PaperWeekly 2022-07-04

收录于合集

©PaperWeekly 原创 · 作者 | 孙裕道

学校 | 北京邮电大学博士生

研究方向 | GAN图像生成、情绪对抗样本生成

引言

在深度学习中，衡量两个概率密度分布的数学工具就是散度，不管是训练分类器模型还是训练都看见到它，所以说了解散度的相关的数学性质是非常有必要的。在该论文中作者为我们描述了散度和训练的一些数学的相关性质，并给出了散度下界的一个初等推导，它构成了训练的基础。进一步作者还推导了散度和扩展的一些其它性质其中就包括梯度匹配性质。

最重要的是作者还提供了计算各种常见 及其变分下界的详细表达式，强烈推荐这篇论文，最好能跟着作者的思路一步一步推导出来，尤其是我对论文中关于对泰勒展开式的补充证明更需要值得慢慢花时间消化，因为我发现很多篇论文中都用到了其泰勒展式的二阶项的信息矩阵。

论文标题：

Properties of f-divergences and f-GAN training

论文链接：

https://arxiv.org/abs/2009.00757

散度族

2.1 定义介绍

定义：给定一个严格凸的二次连续可微函数，在的概率密度函数的和的的定义为：

为了简化起见，作者假设分布和在关于勒贝格积分是绝对连续的，，，并且和都是连续可微的。

在定义函数中添加一个线性函数项那么在散度中只会添加一个常数：比如说如果对于任意的，

则对于任意的分布和，则有：

在通常情况下，我们不关心总体相加偏移，而是将和视为本质上相同的概率分布度量。论文中没有给出该结论相关的数学证明，下面为补充的数学证明。

证明：已知，且，所以则有：

2.2 性质

令，确保当分布时，；确保散度具有非负性，则散度满足如下几个数学性质：

在上是线性的。
对于任意的分布和都有，当且仅当时，取等号。
确定唯一的。
如果，则有。

证明：

1. 线性性证明：对于任意，两个散度和则有：

如果和 是严格凸函数，则 和 都是严格凸函数，此时 和 都是有效的 散度。

2. 非负性证明：因为非负性源于函数是严格凸的。因为，因此则有：

由此可知。

3. 唯一确定函数：证明的中心思想是当时，。考虑和是一个两点集的分布。给定，构造如下两个分布如下所示：

进一步则有公式：

因为当时，对于所有的，有，进一步则有，又因为，所以可得。当时，和的分布构造如下：

进一步化简则有：

同样的证明方法可以得出。

不同的散度在分布和在相距很远的时候，度量的差异很大，但是在时，距离都是 0。考虑一组分布的参数族。对对进行泰勒展开，则有：

其中，，并且以下公式时信息矩阵。

论文中没有给出相应的证明过程，具体的证明过程如下所示：

证明：

为了证明的简便性和可读性，假设是一维的，则有如下公式：

已知，则有：

求解如下导数：

又因为，，所以则有：

求解如下导数：

因为，，所以则有：

将求导结果带入原公式，即可得到一维的散度泰勒展开式，与论文的结果一致，证明完毕。

可以很直观的发现，所有的散度都与附近两个分布之间的散度一致，并且它们都是这个区域中距离的缩放版本。这可以以非参数形式说明如下公式（此处的证明过程中与参数版本的证明方法一致）：

其中满足。上面的公式也可以写成：

因此，所有散度都与附近分布之间的散度的常数因子一致。

变分散度估计

3.1 变分下界

因为是严格凸函数，所以在该函数图像上的每一点的切线都在该函数图像的下面。对于任意，所以则有：

当且仅当时，取等号。用代替，代替，对于任意连续可微的函数，，则可以得到：

当且仅当取等号，此时。令，对任意连续可微函数，则有：

当且仅当取等号，其中则有：

其中和在函数处都是线性的。

3.2 变分散度估计公式

分布和的散度可以通过最大化关于函数的期望来估计，其中可以根据分布和的采样关于函数的期望来估计。如果将参数化为一个带参数的神经网络，那么可以通过最大化关于的来近似散度。这并不能计算出准确的散度原因有如下，第一不能保证位于可由神经网络表示的函数族中；第二基于梯度的优化可以找到局部而不是全局的最小值；第三需要防止训练过程中模型过拟合。但是我们可以尽可能去优化下界进而能够更好的去估计散度。

3.3 散度的表达式

作者针对于每一个散度，作者给出了，，，，，，，的显示表达式。首先是最常见的散度，具体形式如下：

有时散度的定义函数为，因为定义函数加上一个线性函数散度不变，针对于广义的散度，则有如下形式：

定义如下所示：

散度和散度在公式的表示形式上具有明显的对称性。如果，则，。

的具体的推导以及定义的公式如下所示：

距离的相关定义和对应下界函数如下所示：

卡方散度的相关定义和对应下界函数如下所示：

散度的定义和对应的下界函数如下所示：

软化散度的定义和对应的下界函数如下所示：

变分散度极小化

概括了经典，其允许近似最小化任何散度。主要是利用散度从样本数据中去模拟出一个概率模型。是真实的样本分布，其目标是去最小化：

是上的概率密度参数族。假定表示的是生成器。对于中隐式的生成器模型，分布是随机潜变量确定变换的结果。

4.1 梯度匹配特性

给定最佳的，则和是相等的，其中它们的梯度在此时也是相等的如下所示：

由此可知，是非常接近的一个下界。

低维度的生成器

绝大多数生成器由噪声源的确定性神经网络组成。一般情况下噪声的维数远低于样本空间，这意味着给定的经过训练的生成器的可能生成器输出集是样本空间中的低维流形。通常假设自然数据也存在于输出空间中的低维流形上，但作者认为这种情况不是一定的（比如，生成器的输入维度与输出维度一样）。低维生成器生成高维数据分布会有很多问题：

在数据分布下，生成器的输出集的概率可能为。
概率为时，生成器为自然图像指定的概率密度为。
数据分布和生成器之间的散度是发散的。
模型下自然数据的真实对数似然为。
实际上所有散度的梯度经常为。
最优临界点几乎处处是。
的生成器训练的足够好会导致模型崩塌，使得模型生成样本的多样性变差。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！

这把绝对高端局，只有中国人才懂

深入解读f-散度和f-GAN训练的相关数学性质

2.2 性质

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！

这把绝对高端局，只有中国人才懂

生成图片，分享到微信朋友圈

深入解读f-散度和f-GAN训练的相关数学性质

2.2 性质

您可能也对以下帖子感兴趣